智能论文笔记

Acoustic Power Management by Swarms of Microscopic Robots

Tad Hogg

分类：机器人

2021-06-07

人体中的微观机器人可以从超声波上收集能量，从而提供对自主行为的板载控制，例如测量和通信诊断信息以及精确输送药物。本文评估了使用活塞收集能量的微米大小机器人可用的声电。活塞上的声学衰减和粘性阻力是对可用功率的主要限制。大约100kHz的频率可以在皮肤上约10厘米的换能器内向低衰减组织中的机器人传递数百个Picowatt，但在高衰减组织（例如肺）中却少得多。但是，微观机器人的应用可能涉及如此之多，以至于机器人显着增加衰减，从而降低了体内深处的机器人的功率。本文描述了机器人如何共同管理何时和何时收获能量来减轻这种衰减，从而平均可以为每个机器人提供数十亿机器人。

translated by 谷歌翻译

TAD: A Large-Scale Benchmark for Traffic Accidents Detection from Video Surveillance

Yajun Xu , Chuwen Huang , Yibing Nan , Shiguo Lian

分类：计算机视觉

2022-09-26

自动交通事故检测已吸引机器视觉社区，因为它对自动智能运输系统（ITS）的发展产生了影响和对交通安全的重要性。然而，大多数关于有效分析和交通事故预测的研究都使用了覆盖范围有限的小规模数据集，从而限制了其效果和适用性。交通事故中现有的数据集是小规模，不是来自监视摄像机，而不是开源的，或者不是为高速公路场景建造的。由于在高速公路上发生事故，因此往往会造成严重损坏，并且太快了，无法赶上现场。针对从监视摄像机收集的高速公路交通事故的开源数据集非常需要和实际上。为了帮助视觉社区解决这些缺点，我们努力收集涵盖丰富场景的真实交通事故的视频数据。在通过各个维度进行集成和注释后，在这项工作中提出了一个名为TAD的大规模交通事故数据集。在这项工作中，使用公共主流视觉算法或框架进行了有关图像分类，对象检测和视频分类任务的各种实验，以证明不同方法的性能。拟议的数据集以及实验结果将作为改善计算机视觉研究的新基准提出，尤其是在其中。

translated by 谷歌翻译

Talking Head from Speech Audio using a Pre-trained Image Generator

Mohammed M. Alghamdi , He Wang , Andrew J. Bulpitt , David C. Hogg

分类：计算机视觉

2022-09-09

我们提出了一种新颖的方法，用于生成语音音频和单个“身份”图像的高分辨率视频。我们的方法基于卷积神经网络模型，该模型结合了预训练的样式Gener。我们将每个帧建模为Stylegan潜在空间中的一个点，以便视频对应于潜在空间的轨迹。培训网络分为两个阶段。第一阶段是根据语音话语调节潜在空间中的轨迹。为此，我们使用现有的编码器倒转发电机，将每个视频框架映射到潜在空间中。我们训练一个经常性的神经网络，以从语音话语绘制到图像发生器潜在空间中的位移。这些位移是相对于从训练数据集中所描绘的个体选择的身份图像的潜在空间的反向预测的。在第二阶段，我们通过在单个图像或任何选择的身份的简短视频上调整图像生成器来提高生成视频的视觉质量。我们对标准度量（PSNR，SSIM，FID和LMD）的模型进行评估，并表明它在两个常用数据集之一上的最新方法明显优于最新的最新方法，另一方面给出了可比的性能。最后，我们报告了验证模型组成部分的消融实验。可以在https://mohammedalghamdi.github.io/talking-heads-acm-mm上找到实验的代码和视频

translated by 谷歌翻译

Exploring the GLIDE model for Human Action-effect Prediction

Fangjun Li , David C. Hogg , Anthony G. Cohn

分类：计算机视觉 | 人工智能

2022-08-01

我们解决以下动作效应预测任务。给定描绘世界初始状态和文本中表达的动作的图像，预测了动作后描绘世界状态的图像。预测应具有与输入图像相同的场景上下文。我们探讨了最近提出的GLIDE模型执行此任务的使用。Glide是一个生成性神经网络，可以合成图像的掩盖区域（涂层），以短片段为条件。我们的想法是掩盖预期动作效果的输入图像的区域。然后使用滑行以在所需动作为条件的蒙面区域内涂抹涂漆。这样，结果图像具有与输入图像相同的背景上下文，并更新以显示动作的效果。我们使用带有动作标记的自我中心视频的Epic数据集给出了实验的定性结果。

translated by 谷歌翻译

Dimensionless machine learning: Imposing exact units equivariance

Soledad Villar , Weichi Yao , David W. Hogg , Ben Blum-Smith , Bianca Dumitrascu

分类： (统计)机器学习 | 机器学习

2022-04-02

Units equivariance (or units covariance) is the exact symmetry that follows from the requirement that relationships among measured quantities of physics relevance must obey self-consistent dimensional scalings. Here, we express this symmetry in terms of a (non-compact) group action, and we employ dimensional analysis and ideas from equivariant machine learning to provide a methodology for exactly units-equivariant machine learning: For any given learning task, we first construct a dimensionless version of its inputs using classic results from dimensional analysis, and then perform inference in the dimensionless space. Our approach can be used to impose units equivariance across a broad range of machine learning methods which are equivariant to rotations and other groups. We discuss the in-sample and out-of-sample prediction accuracy gains one can obtain in contexts like symbolic regression and emulation, where symmetry is important. We illustrate our approach with simple numerical examples involving dynamical systems in physics and ecology.

translated by 谷歌翻译

Fast 3-dimensional estimation of the Foveal Avascular Zone from OCTA

Giovanni Ometto , Giovanni Montesano , Usha Chakravarthy , Frank Kee , Ruth E. Hogg , David P. Crabb

分类：计算机视觉

2020-12-17

来自光学相干断层造影血管造影（OctA）的en面部图像的变形缺陷区（FAZ）是基于该技术的最常见的测量之一。然而，它在诊所的使用受到正常对象的FAZ区域的高变化的限制，而FAZ的体积测量的计算受到Octa扫描表征的高噪音的限制。我们设计了一种算法，该算法利用EN面图像的较高信噪比，以便在单独的丛中的毛细管不重叠的情况下有效地识别3维度（3D）中的内视网膜的毛细管网络。然后通过形态学操作处理网络以识别内视网膜的边界分割内的3D FAZ。为430只眼的数据集计算了不同丛的FAZ音量和区域。然后，使用线性混合效果模型进行测量以识别三组眼睛之间的差异：健康，糖尿病，没有糖尿病视网膜病变（DR）和糖尿病患者。结果表明，不同组之间的FAZ体积差异显着差异，但不在面积测量中。这些结果表明，比平面FAZ，体积FAZ可能是一个更好的诊断探测器。我们介绍的有效方法可以允许在诊所的FAZ音量快速计算，以及提供内视网膜毛细管网络的3D分段。

translated by 谷歌翻译